草庐IT

sql - Sum on a left join SQL

全部标签

sql - sql中如何计算某列的连续行数

我有一个包含3列的表格。表格数据Customer_idtimestamppage_url123410-11-201510:00:12page1123410-11-201510:00:16page3123410-11-201510:00:19page2123410-11-201510:01:12page1123410-11-201510:01:20page2---thisshouldbecountedas1123410-11-201510:01:50page2---thisshouldbecountedas1123410-11-201510:02:12page4567810-11-201

sql - 当前日期缺失时的 30 天滚动/移动总和

我有一个表(view_of_referred_events),它存储给定页面的访问者数量。datecountry_idreferralproduct_idvisitors2016-04-01216pl11375912016-04-03216pl11375912016-04-06216pl113759132016-04-07216pl11375910我想计算该产品的30天滚动/移动总和,即使是那些缺失的日子。所以最终结果应该是这样的:datecountry_idreferralproduct_idcumulative_visitors2016-04-01216pl11375912016-

hadoop - 从 SQL Server 导入,数据类型未正确转换

从SQLServer导入,数据类型转换不正确堆栈:使用Ambari2.1安装HDP-2.3.2.0-2950目标:以Avro格式将表从SQLServer导入到HDFS创建包含所有数据的外部HiveAvro(SerDe)表创建外部HiveORC表并插入ORCselect*fromAvro表删除Avro表并在ORC表上执行测试其中一张表:ECU_DTC_IDintDTC_CDEnchar(20)ECU_NAMEnvarchar(15)ECU_FAMILY_NAMEnvarchar(15)DTC_DESCnvarchar(MAX)INSERTED_BYnvarchar(64)INSERTIO

hadoop - 如何在 spark sql 的配置单元上下文对象中查找登录/连接/当前用户?

如何在sparksql的配置单元上下文对象中找到登录/连接/当前用户?可以使用任何sql查询或Unix命令。?我试过了!我是谁;hive命令提示符中的命令。是不是最优解我需要在sql查询中获取登录的用户,并想使用sparksql将其插入到表中 最佳答案 在PySpark中,使用这个sqlContext._sc.sparkUser()或sqlContext.sql('selectcurrent_user()').show() 关于hadoop-如何在sparksql的配置单元上下文对象中查

hadoop - 如何使用 Spark SQL 创建分区表

我知道我们可以通过以下方式创建一个自动分区发现表CREATETABLEmy_tableUSINGcom.databricks.spark.avroOPTIONS(path"/path/to/table");但这需要将数据路径更改为partition_key=partition_value格式/path/to/table/dt=2016-10-09/path/to/table/dt=2016-10-10/path/to/table/dt=2016-10-11但是数据结构是这样的:/path/to/table/2016-10-09/path/to/table/2016-10-10/path

如何通过在SQL查询中分离的分离的半隆分组所有值

请帮助如何按照所附图像中显示的数据实现数据突出显示的行实际上在项目编号字段上进行分组提前致谢看答案以下应该有效:SELECTdistinctItemNumber,SUBSTRING((SELECT';'+TotalItem+'x'+ItemNameFROMYourTablewhereItemNumber=c.ItemNumberORDERBYItemNumberFORXMLPATH('')),2,200000)ASNewDescriptionfromYourTablecGO

hadoop - 使用配置单元初始化数据库时出现 java.sql.SQLException : Failed to start database 'metastore_db' ERROR,

我在3个集群上安装了Hadoop和Hive。我能够从运行HIVE的集群节点登录到配置单元。root@NODE_3hive]#hiveLogginginitializedusingconfigurationinjar:file:/usr/lib/hive/lib/hive-common-0.10.0-cdh4.2.0.jar!/hive-log4j.propertiesHivehistoryfile=/tmp/root/hive_job_log_root_201304020248_306369127.txthive>showtables;OKTimetaken:1.459secondsh

sql - 寻找更小规模的类似 Hadoop 的解决方案

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我们有一个大约1000GB(千兆字节)的数据库,我们正在考虑使用Hadoop来进行时间序列分析。问题是Hadoop需要一些时间才能进入,而且对于我们数据库的大小,Hadoop实际上是一个超大的解决方案。我的问题是是否有人知道类似Hado

sql - 在两个大数据流中查找客户条目的有效方法

如果我有一个数据流每天给我1000万条记录(流A),另一个数据流每天给我10亿条记录(流B),查看数据是否重叠的有效方法是什么?更具体地说,如果流A中有一位客户访问了一个网页,而同一位客户访问了流B中的另一个网页,我如何判断该客户访问了这两个网页?我最初的想法是将记录放入关系数据库并进行连接,但我知道这样效率很低。执行此操作的更有效方法是什么?我如何使用Hadoop或Spark等工具来做到这一点? 最佳答案 联接应该是处理此问题的有效方法。您应该对两个数据集进行排序,或者对CustomerID进行索引(并且索引将按CustomerI

sql - 改变 hive 中的现有 map

我有一个配置单元表,其中一列为map数据类型。map>现在我想在结构值中添加一列,如下所示:map>任何人都知道如何实现这一目标。提前致谢。 最佳答案 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ChangeColumnName/Type/Position/Commentaltertabletchangecolumnmycolmycolmap>;请注意,默认情况下只有新分区会受到更改的影响。如果您希望它应用